LLM(大型語言模型,Large Language Model):
指擁有「上億到千億參數」的深度學習模型,能理解並生成自然語言。LLM是總稱,常見的有GPT 系列、BERT、T5、LLaMA……得模型。
GPT(Generative Pre-trained Transformer, 生成式預訓練模型):
目標是根據「前面的文字」預測「下一個字」,藉此產生連貫的語句。
它由兩個階段構成:
-
Pre-training 預訓練:使用大量網路文字學習語言知識。
-
Fine-tuning 微調:根據特定任務(如翻譯、問答)進行進一步訓練。
GPT 是 Transformer 架構的應用,所以只具備「Decoder-only」的單向架構。
基本的神經架構名詞
CNN(Convolutional Neural Network):
-
最初是為了圖像識別而設計(如 LeNet、AlexNet)
-
2014 年被提出可以用來處理 NLP 問題,如文本分類,透過卷積核提取局部特徵(例如詞組、片語)
-
限制: 難以處理上下文關聯
RNN(Recurrent Neural Network)
-
傳統全連接神經網路(Feedforward)無法處理時間序列,所以發展出「時間步進(Time Step)」,就是有時間順序的
-
缺點: 隨著時間記憶慢慢消失
1. 長期依賴問題(Long-Term Dependency Problem)
2. 容易出現「梯度消失 / 爆炸」
LSTM(Long Short-Term Memory)
-
為了解決 RNN 記憶不住長距離資訊
-
加入 記憶單元(cell state) 與三個門控機制: 遺忘門、輸入門、輸出門,才能夠「選擇性地保留或遺忘資訊」
-
缺點是訓練時間長(逐字處理)、無法並行化(多個資料不能一起處理)
Transformer
-
完全捨棄 RNN 結構,改用「Self-Attention 機制」: 同時關注整句中任意位置的詞 和具備並行運算能力
-
Transformer 在性能與語言理解上全面超越 RNN,是目前 NLP 主流架構,發展出BERT、GPT、T5
、BART、XLNet、LLaMA、ChatGPT……
補充:
Token 是什麼?
指語言模型處理文字的最小單位,也就是電腦可以看得懂的最小單位。
操作順序為 將文字轉換成 Token → 轉換成向量~~以後章節會提到
Encoder 和 Decoder 是什麼 ?
是兩個基本結構單元,用來「理解輸入」和「生成輸出」
-
Decoder-only: 生成式任務 (對話、寫作、摘要)
主要用途: 依序預測下一個 token
-
Encoder-only: 專注理解輸入(雙向)
主要用途: 分類、NER、情感分析
-
Encoder-Decoder: 編碼輸入 → 解碼輸出,適合輸入和輸出都有語意任務
主要用途: 翻譯、摘要、問答、語意轉換